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摘要 : 


【 目的 ] 利用 Word2Vec 深度 学 习 技术 从 面向 大 众 的 健康 信息 中 寻找 疾病 关联 , 解决 非 医 学 人 士 通常 不 了 


解 多 种 疾病 之 间 存 在 的 关联 ， 从 而 影响 到 健康 信息 搜寻 中 的 全 面 性 和 有 效 性 的 问题 。[ 方法 】 由 专家 选取 30 个 
常见 疾病 主题 ,从 高 质量 医学 新 闻 网 站 上 采集 对 应 疾病 的 文档 , 运用 Word2Vec 技术 对 各 疾病 的 相关 文档 构造 词 
向 量 , 计算 向 量 距 离 判 断 疾病 关联 。 通 过 与 专家 评分 的 相关 分 析 衡 量 判断 结果 的 准确 性 。[ 结果 】 最 优 情 况 下 ， 
Word2Vec 得 到 的 结果 与 专家 评分 相关 系数 达到 0.635。 通 过 对 比 不 同 的 算法 模型 、 优 化 方法 、 数 据 规模 及 重要 
参数 对 结果 的 影响 , 发现 Skip-Gram 模型 结合 负 样 本 数 为 20 的 Negative Sampling 优化 方法 在 大 规模 数据 集 上 的 
实验 结果 最 优 。[ 局 限 ] 疾病 主题 选取 宽泛 时 ,影响 Word2Vec 判断 准确 性 , 本 文 的 疾病 主题 选取 粒度 有 待 改善 。 
【 结论 ] 利用 Word2Vec 技术 在 面向 大 众 的 健康 信息 源 中 也 可 以 探测 疾病 关联 ， 其 有 效 性 表明 该 技术 可 用 于 改善 


大 众 的 健康 信息 搜寻 的 个 性 化 服务 。 
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以 往 , 普通 大 众多 从 专业 医学 人 士 处 获取 疾病 健 
康 知识 。 互 联网 的 发 展 可 以 让 大 众 更 加 主动 地 去 上 网 
搜寻 自己 所 需 的 健康 信息 。 近 年 来 , 各 种 新 型 健康 服 
务 平台 不 断 兴 起 , 这 些 服务 多 以 疾病 知识 科普 、 在 线 
咨询 为 主 , 极 大 丰富 了 人 们 获取 医学 信息 的 渠道 。 然 
而 ,大众 由 于 缺乏 专门 的 医学 知识 ,并 不 了 解 疾 病 之 
间 复 杂 的 关联 , 例如 牙 周 疾病 可 能 由 糖尿 病 引 起 。 对 
这 种 关联 缺乏 了 解 会 影响 到 大 众 管理 自身 健康 、 搜 寻 
全 面 有 效 的 医学 信息 。 如 果 能 通过 技术 手段 寻找 疾病 
主题 之 间 的 关联 ,可 用 于 改善 健康 信息 的 个 性 化 服务 ， 
提高 信息 服务 平台 的 内 容 组 织 和 导航 质量 。 由 于 专业 
医学 文献 使 用 的 术语 不 易 被 大 众 理解 ,本 文 使 用 非 专 


了 中 


业 医 学 信息 ， 如 高 质量 的 健康 新 闻 , 通过 Word2Vec 深 
度 学 习 技术 ,基于 疾病 相关 文档 探测 疾病 主题 之 间 的 
关联 , 并 与 专家 评判 结果 对 比 , 发 现 这 种 技术 能 有 效 
地 用 于 疾病 之 间 的 关联 探测 。 


2 相关 工作 


面向 普通 大 众 的 健康 信息 服务 早 就 引起 关注 吕 
Eysenbach 明确 提出 了 结合 信息 技术 手段 为 消费 者 提 
供 健康 信息 服务 , 包括 分 析 消 费 者 的 健康 信息 需求 ， 
研究 并 实现 能 为 消费 者 提供 信息 的 方法 , 依据 消费 者 
的 偏好 设计 模型 构建 信息 系统 等 中 。 国 内 称 这 一 研究 
范畴 为 “用 户 健康 信息 学 ”"。 目 前 面向 消费 者 的 健康 服 
务 不 断 涌现 ,提供 疾病 知识 科普 、 定 制 的 信息 推送 或 
疾病 问题 在 线 咨询 等 , 推动 人 们 管理 自身 健康 ,提高 
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大 众 健康 信息 素养 。 

为 帮助 人 们 更 高 效 准确 地 获取 健康 信息 ,人 研究 人 
员 开 展 了 很 多 工作 ,主要 分 为 儿 个 方面 : 

(1) 调查 消费 者 的 信息 查寻 行为 中 弄 清 他 们 在 互 
联网 上 查找 医学 健康 信息 时 最 关心 什么 类 型 的 内 容 ; 

(2) 帮助 人 们 理解 医学 术语 , 解决 由 于 “词汇 之 
间 的 鸿沟 ” 带 来 的 难以 理解 信息 或 者 理解 有 偏差 的 问 
题 外 ,例如 研制 用 户 健康 词 表 (CHV) 中 、 预 测 用 户 对 健 
康 术语 的 熟悉 度 [9; 

(3) 建立 从 医学 专业 领域 概念 到 普通 认 知 范畴 的 映 
射 , 处 理 用 户 健康 词汇 与 UMLS 词 表 匹 配 的 问题 外。 

然而 ,由 于 疾病 之 间 存 在 着 复杂 的 关联 , 未 经 专 
业 医学 训练 的 普通 大 众 很 难 了 解 疾病 之 间 的 关联 。 这 
影响 他 们 在 信息 搜寻 的 时 候 获 取 全 面 的 相关 信息 。 目 
前 这 方面 的 研究 还 比较 欠缺 。 

传统 上 疾病 关联 探测 是 临床 医学 研究 或 生物 医学 
实验 的 任务 。 现 有 的 利用 文本 挖掘 探测 疾病 关联 的 研 
究 主要 以 专业 医学 文献 为 研究 对 象 。 比 如 有 学 者 采用 
语义 扩展 模型 和 神经 网 络 聚 类 方法 , 将 疾病 类 型 与 臻 
病 基因 关联 起 来 由 。 这 些 研究 结论 多 为 分 子 生物 学 、 
基因 、 化 学 成 分 等 层面 的 解释 , 缺乏 专业 知识 的 普通 
大 众 是 很 难 理解 的 。 
面向 大 众 的 医学 健康 信息 源 包括 健康 门户 网 站 、 
医学 新 闻 网 站 、 在 线 健康 社区 、 公 共 健 康 知识 库 等 。 
对 在 线 健康 社区 MedHelp 的 用 户 发 帖 的 研究 ， 发现 药 
物 与 其 不 良 反 应 的 关系 ， 有 助 于 药品 安全 监管 者 有 效 
地 识别 早期 药品 不 良 反 应 信号 (了 。 对 特定 疾病 社区 中 
的 用 户 帖子 进行 文本 聚 类 分 析 , 分 析 三 类 疾病 之 间 的 
联系 与 差异 趾 。 这 些 研 究 说 明 利用 大 众 健康 信息 源 可 
以 找到 一 些 对 用 户 很 有 参考 意义 的 联系 。 但 在 线 健康 
社区 的 信息 内 容 质量 不 佳 , 为 了 保证 研究 结论 的 可 靠 
性 ,本 文选 择 高 质量 的 医学 新 闻 。 此 外 , 还 有 利用 社会 
网 络 分 析 法 来 探究 健康 主题 之 间 关 系 的 研究 ， 如 刘 红 
起 等 1 对 WHO 网 站 的 健康 信息 主题 进行 分 析 , 采用 
文本 相似 性 算法 ,挖掘 它们 之 间 的 链接 关系 和 语义 关 
系 , 用 社会 网 络 的 方式 来 呈现 。 但 该 方法 过 于 依赖 特 
定 网 站 的 链接 结构 ， 所 能 找到 的 关联 比较 受 限 ; 研究 
中 采用 文本 相似 性 算法 ,也 没有 充分 反映 其 语义 层面 
的 关系 。 

据 笔者 调研 所 知 ,利用 大 众 健康 信息 挖掘 不 同 疾 


病 或 主题 间 关系 的 研究 有 很 值得 深入 的 空间 。 本 文 将 
疾病 关联 的 发 现任 务 转换 为 探测 疾病 相关 文档 的 语义 
关联 , 利用 Word2Vec(Word to Vector) 技 术 找 到 与 特定 
疾病 关系 密切 的 词汇 , 利用 这 一 桥梁 发 现 疾病 关联 。 

2003 年 , Bengio 等 提出 神经 网 络 语言 模型 (Neural 
Network Language Model, NNLM), 利用 神经 网 络 结构 
对 自然 语言 建 模 的 同时 , 得 到 了 词 向 量 站 。2013 年 ， 
Mikolov 等 简化 NNLM 模型 ， 提 出 CBOW(Continuous 
Bag-Of-Words) 模 型 和 Skip-Gram 模型 (94， 旨 在 更 高 效 
地 实现 词语 的 向 量 表示 。 同 年 ， Google 公司 推出 这 两 
个 模型 的 C 语言 实现 版 本 , 称 之 为 Word2Vec; 目前 
Python 库 中 gensim 包 也 集成 了 该 算法 。Word2Vec 是 
基于 深度 学 习 思 想 04， 通 过 训练 文本 数据 集 , 将 词语 
不 同 的 语法 和 句法 特征 映射 到 向 量 的 不 同 维度 上 去 ， 
将 单个 词语 表示 为 高 维 向 量 空间 中 的 某 个 点 。 它 用 于 
实现 词语 的 向 量 表示 时 主要 有 CBOW 和 Skip-Gram 两 
种 模型 。 两 者 的 区 别 在 于 , CBOW 模型 是 已 知 上 下 文 ， 
预测 中 心 词 ; 而 Skip-Gram 模型 则 是 已 知 当 前 词 , 预 
测 其 上 下 文 。 相 关 研 究 证 明 , 该 技术 应 用 在 词语 相似 
度 计算 1 中、 机 器 翻译 、 特 征 抽取 "” 站 、 情 感 分 类 中 "等 
领域 效果 较 好 。Word2Vec 技术 具有 通用 性 并 且 使 用 方 
法 相对 较 简 单 。 


3 ”疾病 关联 探测 


不 同 于 以 往 从 生物 实验 和 临床 角度 寻找 疾病 关 
联 , 本 文 将 探测 疾病 关联 的 任务 转换 为 从 疾病 相关 文 
档 中 发 现 语义 关联 。 具 体 采 用 Word2Vec 技术 , 利用 医 
学 健康 新 闻 寻 找 疾病 关联 ， 旨 在 探讨 一 种 通用 的 方法 
找到 疾病 主题 之 间 的 关联 关系 , 改进 人 们 搜寻 健康 信 
息 的 效率 和 效果 。 本 文 主要 围绕 以 下 两 个 问题 : 

(1) 如 何 利用 Word2Vec 寻 找 疾病 之 间 的 关联 关系 ? 

(2) 如 何 评估 Word2Vec 应 用 在 疾病 关联 探测 上 的 
效果 ? 

在 特定 疾病 的 相关 文档 集合 上 , 用 Word2Vec 技 
术 找 到 揭示 不 同 疾病 主题 的 词汇 向 量 ， 借 助 其 相似 度 
确定 疾病 主题 的 关联 ; 通过 统计 分 析 方 法 将 结果 与 专 
家 评分 结果 进行 对 比 , 结合 参数 调 优 实验 确定 可 令 结 
果 最 优 的 参数 配置 。 
3.1 数据 采集 

不 同 于 以 往 在 专业 医学 文献 中 挖 气 疾病 关联 的 研 
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究 , 本 文选 用 普通 人 能 理解 的 健康 信息 ,原因 是 专业 
医学 文档 的 术语 难以 为 大 众 所 理解 ， 即 使 找到 了 关联 ， 
也 难以 直接 应 用 于 普通 大 众 经 常 浏览 的 信息 源 。 

数据 来 自 于 Medical News Today 网 站 。 该 网 站 新 
闻 由 具有 医学 背景 的 专业 人 员 撰 写 , 并 由 网 站 人 工 添 
加 类 别 标签 。 内 容 质 量 较 高 且 易 于 被 普通 人 理解 。 其 
类 别 标签 按 大众 关 心 的 健康 问题 分 为 144 个 类 , 每 个 
类 都 有 对 应 的 新 闻 文 档 。 

本 研究 采用 其 中 30 种 有 代表 性 的 疾病 类 别 ， 
Addiction (成 将 )、Allergy (过 敏 )、Alternative Medicine 
(补充 和 代替 医疗 )、Anxiety (焦虑 )、Arthritis (关节 炎 )、 
Asthma ( 哮 跨 )、Breast Cancer (乳腺 癌 )、Cardiovascular 
(心血 管 )、Cholesterol (胆固醇 )、COPD( 慢 性 阻塞 性 肺 
疾病 )、Dentistry (牙科 )、. Depression (抑郁 )、Diabetes ( 糖 
尿 病 )、Eating Disorders (饮食 失调 )、Flu (流感 )、 
Headache (头痛 )、Heart Disease (心脏 病 )、HIV (艾滋 
病 )、Hypertension (高 血压 )、Men’s Health (男性 健康 )、 
Mental Health (心理 健康 )、Neurology (神经 病 学 )、 
Nutrition (营养 学 )、Obesity (肥胖 )、Pregnancy (怀孕 )、 
Prostate (前 列 腺 )、Seniors (老年 人 疾病 )、Sleep (睡眠 
问题 )、Women’s Health (女性 健康 ) 、Stroke (中 风 )。 

采集 每 个 选 定 类 别 的 疾病 中 的 健康 新 闻 。 对 医学 
健康 新 闻 网 页 使 用 Python 的 自然 语言 工具 包 NLIK3.2 
版 本 进行 文本 预 处 理 , 经 过 清除 网 页 噪音 、 分 词 、 统 
一 大 小 写 、 词 形 归 并 、 去 除 停 用 词 等 步骤 。 

为 了 对 比 数据 集 对 算法 结果 的 影响 , 使 用 的 数据 
集 分 为 3 000、6 000 和 9 000 个 网 页 三 种 , 分 别 记 为 
3K、6K、9K。 其 中 6K 数据 集 是 在 每 个 类 别 已 经 抓 取 
前 100 个 网 页 基础 上 ,又 继续 抓 取 100 个 网 页 得 到 的 ， 
9K 同 理 。 

3.2 ”Word2Vec 模型 构建 

Word2Vecn' "1 用 于 实现 词语 的 向 量 表 示 有 
CBOW 模型 和 Skip-Gram 模型 ; 用 于 优化 算法 效率 的 
方法 包括 Hierarchy SoftMax(HS) 和 Negative Sampling 
(NS) 两 种 。 将 它们 两 两 组 合 ， 得 到 4 种 训练 框架 ， 如 表 
1 所 示 : 


表 1 训练 框架 


训练 框架 Hierarchy SoftMax Negative Sampling 


CBOW&NS 
Skip-Gram&NS 


CBOW 
Skip-Gram 


CBOW&HS 
Skip-Gram&HS 
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(1) CBOW 模型 和 Skip-Gram 模型 
CBOW 模型 与 Skip-Gram 模型 实际 上 是 对 神经 网 
络 语言 模型 (NNLM) 的 优化 。NNLM 是 统计 语言 模型 
的 一 种 , 工作 原理 见 图 1: 
VI 
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图 1 神经 网 络 语言 模型 


输入 语料库 C, 构建 词汇 表 V 词汇 表 V 中 词语 总 
量 为 |V|， 假设 通过 语言 模型 预测 的 词 为 wi, 其 上 下 文 
为 wi 的 前 @m-1) 个 词 ; 上 述 条 件 下 ,NNLM 模型 目标 为 
最 大 化 式 (1): 


PCwilwi-o-D, Wi-(n-2) "Wi-1) (1) 
NNLM 为 三 层 前 馈 神 经 网 络 结构 , 输入 层 x 为 前 
(n-1) 个 词 的 词 向 量 的 顺序 拼接 , 隐藏 层 h, 输出 层 y 为 
剩余 两 层 神经 网 络 。 其 中 H 为 输入 层 到 隐藏 层 的 权重 
矩阵, U 为 隐藏 层 到 输出 层 的 权重 矩阵 , bb 中 为 偏 置 
项 ,tanh 为 双 曲 正切 函数 。 


X=[e(Wi_(n_1)); (Wi_(n 2))**e(wWi_1)] (2) 
h=tanh(b' V+Hx) (3) 
y=bO+Uh (4) 


值得 注意 的 是 , 输出 层 y 共有 |V| 个 元 素 , 分 别 对 
应 下 一 个 词 为 V 中 某 词 的 可 能 性 ， 需要 利用 SoftMax 
函数 ,将 其 转 成 概率 值 


exp(y(wi)) 
P(wi| Wi-(n-l)» Wi-(n-2) “Wi_1)= 人 (5) 


> exp(y(wi)) 


训练 时 , 优化 的 目标 为 最 大 化 式 (6): 


> logP(wilWwi om wo wi) ieC (6) 


在 实际 训练 时 ,通过 随机 梯度 下 降 法 来 不 断 迭 代 ， 
每 次 迭代 都 会 对 词 向 量 及 训练 时 中 间 和 矩阵 等 参数 进行 
一 次 更 新 。 优 化 完成 后 ,相应 的 词 向 量 也 生成 完毕 。 

由 于 从 隐藏 层 到 输出 层 的 矩阵 计算 最 耗费 时 间 ， 


故 CBOW 和 Skip-Gram 模型 在 NNLM 的 基础 上 去 掉 
了 隐藏 层 , 使 得 计算 量 大 大 减 小 ,而 准确 性 则 由 训练 
样本 的 扩大 来 保证 。 

CBOW 模型 结构 见 图 2。 上 下 文 c 取 词 wi 的 前 后 
各 (n-1)/2 个 词 , 假设 上 下 文中 所 有 的 词 对 当前 词 出 现 
概率 影响 的 权重 一 样 , 不 考虑 出 现 的 先后 顺序 , 将 输 
入 层 的 上 下 文 c 的 词 向 量 e(w 拼 接 改 为 词 向 量 的 平均 
值 (或 求 和 )， 如 式 (7) 所 示 ; 迭代 时 优化 目标 为 最 大 化 
式 (8), 迭代 过 程 中 也 实现 了 词 向 量 的 优化 。 


*=— Belw) 0 
> log P(w |c) (8) 
™ (w,c)eC 
] 
输出 层 y Ne 
+ 
和 给 和 层 XOOO) (OOO)(COO) -COO) 
= 原始 文本 we wo ed de 0 
入 图 2 CBOW 模型 
Ge Skip-Gram 模型 见 图 3, 它 采 用 “ 跳 过 某 些 单元 


CN 的 方式 来 扩大 训练 样本 ， 上 下 文 词语 组 合 情 况 增多 ; 
从 词 wi 的 上 下 文 c 中 随机 选择 一 个 词 的 词 向 量 wj 作为 
输入 ; 优化 的 目标 为 最 大 化 式 (9): 

> >》1logP(wlwj) (9) 


(Ww,c)eCwiec 


Vv 
输出 层 y gd 
输入 层 x{O) 

原始 文本 


Wi er_1y2 
图 3 Skip-Gram 模型 


(2) Hierarchy SoftMax 和 Negative Sampling 

为 了 降低 模型 的 时 间 复 杂 度 ，Hierarchy SoftMax 
借助 分 类 的 方式 , 对 词语 按照 词 频 、 词 性 或 者 主题 进 
行 区 分 , 将 某 个 类 型 下 的 词 群 抽象 为 一 个 词 向 量 ， 计 


加 例如 ,句子 “杭州 绿茶 真 的 太 好 喝 了 ” 包含 4 个 三 元 词组 : “杭州 绿茶 真 的 ”、 
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算 时 用 这 个 抽象 的 词 向 量 代 表 这 类 词 ， 从 而 减 小 计算 
的 复杂 度 。 比 如 利用 词 频 特征 构造 哈 夫 曼 树 来 进行 分 
层 , 用 抽象 的 中 间 市 点 的 向 量 来 近似 代替 它 的 所 有 子 
节点 的 向 量 。Negative Sampling 相对 更 简单 , 采用 负 
采样 来 提高 训练 速度 。 模 型 迭代 时 , 采用 随机 负 采 样 
的 方法 进行 计算 并 更 新 , 而 不 是 将 下 一 个 词 为 词汇 表 
中 的 任意 词 的 概率 都 计算 一 遍 。 使 用 负 采 样 样本 作为 
所 有 非 当 前 词 wG) 的 替代 。 它 的 实现 有 多 种 算法 ， 比 
如 根据 词 频 的 带 权 采样 算法 。 
3.3 ”模型 训练 

本 文采 用 Python 的 gensim 模块 提供 的 Word2Vec 
工具 包 。 训 练 过 程 中 影响 实验 准确 性 和 效率 的 参数 主 
要 如 表 2 所 示 : 


表 2 关键 参数 及 解释 
参数 解释 

8 训 练 模型 选择 , 取 0 为 CBOW 模型 ; 取 1 为 Skip-Gram 
模型 

hs 优化 方法 选择 , 取 0 为 NS 方法 ; 取 1 为 HS 方法 

负 采 样 样本 值 , 默认 为 5 

size 词 向 量 维度 , 一 般 而 言 ， 几 十 到 几 百 之 间 效 果 比 较 好 
词 频 最 低 值 , 一 般 为 10~100 之 间 , 用 于 限制 词汇 量 


negative 


Imin_count 


大 小 
高 频 词 采样 样本 数 , Google 文档 推荐 值 为 le-5~1e-3 
sample 
之 间 
iw 训练 窗口 大 小 , 表示 句子 中 当前 词 和 预测 词 最 远 距 离 ， 
一 般 取 值 越 大 越 好 , 直到 某 个 临界 值 
workers ”训练 模型 的 并 行 线程 数 , 一 般 取 4~6 


sg 参数 对 应 模型 的 选择 , 取 1 代表 Skip-Gram 模 
型 ; 取 0 代表 CBOW 模型 。 hs 参数 对 应 优化 算法 的 选 
择 , 取 1 代表 Hierarchy SoftMax 算法 ; 取 0 代表 
Negative Sampling 算法 。negative 参数 对 应 Negative 
Sampling 算法 中 负 采 样 样本 的 数量 。size 是 词 向 量 的 
维度 ， 随 着 size 值 的 增 大 , 词 向 量 准确 性 会 先 提高 ， 到 
达 某 极 值 后 ，size 值 继续 增 加 , 准确 性 反而 会 降低 。 
min_count 参数 是 用 来 过 滤 低 频 词 的 ， 相当 于 进行 一 
次 词 频 低 于 min_count 的 词 删除 的 预 处 理 。sample 参 
数 是 对 高 频 词 进行 处 理 的 。 迭 代 过 程 中 更 新 高 频 词 会 
占用 一 定 的 时 间 ， 而 高 频 词 对 应 的 词 向 量变 化 不 大 ， 


“绿茶 真 的 太 ”、“ 真 的 太 好 喝 "、“ 太 好 喝 了 ” 其 实 它 的 含 


义 为 "杭州 绿茶 好 喝 ” 却 没有 一 个 词组 表达 了 这 个 意思 , 如果 人 允许 跳 过 2 个 词 , 则 会 出 现 18 种 三 元 词组 , 其 中 一 种 为 “杭州 绿茶 好 喝 ”。 
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故 采 用 Subsampling 技术 (二 次 采样 ) 在 训练 时 跳 过 某 
些 高 频 词 。 如 公式 (10) 所 示 , p(w) 代 表 词 语 w 被 跳 过 的 
概率 , 其 中 f(w) 为 该 词 在 语料库 C 中 出 现 的 概率 : 
f(w)>t 时 , f(w) 越 大 , p(w) 越 大 , 被 跳 过 的 概率 越 大 。 


p(w) =1- i (10) 


window 参数 指 训练 窗口 的 大 小 , 与 上 下 文 构造 
相关 。 每 次 构造 词 w 的 上 下 文 context(w) 时 ,生成 [1， 
window] 上 一 个 随机 整数 c, 在 w 前 后 各 取 ec 个 词 , 构 
成 context(w)。 一 般 而 言 , window 值 越 大 越 好 ， 直 到 到 
达 某 个 极 值 。 

workers 参数 则 是 并 行 线程 数 , workers 越 大 , 训练 速 
度 越 快 ; 可 以 根据 计算 机 性 能 尽 可 能 增加 workers 值 。 
3.4 ”疾病 主题 语义 相似 性 计算 

模型 训练 的 结果 是 将 每 个 疾病 主题 词 都 映射 为 N 
维 向 量 空间 中 的 一 个 点 ,根据 向 量 空间 中 余弦 距离 公 
式 求解 词 向 量 之 间 的 距离 ， 作为 其 语义 相似 性 。 假 设 
两 个 疾病 主题 的 N 维 词 向 量 分 别 为 : 


ti = (WI, Wi2，W13，… WI(n-1), Win), 


(11) 


ty = (W21, WwW22，W23，…W20n_D，Wo2n) 
余弦 值 越 大 ， 表示 疾 病 主题 f 和 疾病 主题 t 在 语 
义 上 越 相 似 。 计 算 公 式 如 下 : 
Sk 
cos(0) = 人 (12) 
此 we 此 war 
k=1 k=1 
分 别 计算 30 个 疾病 主题 两 两 之 间 的 语义 距离 , 得 
到 435 组 值 。 


4 实验 设计 与 结果 


Word2Vec 的 效果 受到 数据 规模 、 模 型 的 选择 、 参 
数 的 设 定 等 因素 影响 。 实 验 将 对 上 述 内 容 进行 一 一 检 
测 ， 并 与 专业 医生 对 30 种 疾病 关联 关系 的 评分 结果 对 
比 。 记 专家 评分 值 为 base 值 , 利用 SPSS 计算 训练 值 
与 base 值 的 相关 性 分 析 ,， 可 得 到 各 种 因素 对 结果 的 影 
响 ， 并 评估 该 方法 在 实际 中 的 可 用 性 。 
4.1 数据 规模 

4 中 的 纵 坐 标 代表 训练 结果 与 base 值 的 Pearson 
相关 系数 。 数 据 集 从 3K 扩大 到 6K 时 , 效果 有 了 一 定 
的 提高 ,而 扩大 到 9K 时 ,相关 系数 明显 增 大 。 另 外 在 
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3K 数据 集 下 ， 即 使 效果 最 好 的 Skip-Gram&HS 结果 ， 
相关 关系 仍然 不 太 显著 。 分 别 对 各 类 参数 进行 调整 ， 
使 用 3K 数据 集 时 最 优 结 果 在 0.01 水 平 下 相关 系数 为 
0.394, 小 于 0.4。 而 数据 集 增 大 到 9K 时 , Skip-Gram 模 
型 的 初始 相关 系数 就 达到 0.454。 可 见 数据 规模 是 影响 
Word2Vec 训练 质量 的 关键 性 因素 。 数 据 规模 越 大 , 模 
型 效果 越 好 。 


3K 6K OK 


0.35 

0.30 

0.25 畦 日 

0.20 国 


Skip- Skip- 
CBOW&HS | CBOW&NS gram&HS gram&NS 
3K 0.269 0.251 0.306 | 0.297 
6K 0.293 0.266 0.354 0.306 
9K 0.294 0.379 0.454 0.424 
图 4 不 同 数据 规模 下 模型 结果 与 专家 打分 的 
相关 系数 对 比 


Word2Vec 是 基于 词 的 上 下 文 关系 来 建立 词 的 语 
义 关 系 , 数据 集 增 大 , 词 的 上 下 文 语 境 更 全 ,训练 得 
到 的 词 癌 量 更 能 够 反映 出 该 语 料 集 里 词汇 的 语义 。 实 
验 说 明 3K 数据 集 过 小 , 难以 很 好 地 衡量 词 与 词 之 间 
的 语义 相似 性 。 Word2Vec 技术 在 样本 数 较 小 时 表现 并 
不 好 。 
4.2 ”模型 选择 

图 4 对 4 种 训练 架构 的 结果 也 进行 了 比较 ，Skip- 
Gram 效果 明显 比 CBOW 好 ; 但 是 后 者 的 实际 运行 时 
间 较 短 。 对 于 同一 语料库 ，Skip-Gram 会 利用 “ 跳 过 某 
些 单元 ”的 方式 来 扩大 训练 样本 ,这 也 可 以 看 成 “数据 
规模 ”的 增加 ， 从 而 带 来 了 模型 性 能 的 增加 与 训练 时 
间 的 增长 。 

从 优化 算法 来 看 , 以 Skip-Gram 模型 为 前 提 , 虽然 
在 数据 集 为 9K 时 , Skip-Gram&HS 比 Skip-Gram&NS 准 
确 一 些 , 但 在 3K 和 6K 数据 集 下 两 者 差别 并 不 大 , 见 
图 4。 此 处 用 于 比较 的 Negative Sampling 采样 中 负 样 
本 取 值 (negative) 为 5, 事实 上 , 负 样 本 取 值 也 会 影响 
Negative Sampling 方法 的 效果 。 

表 3 显示 了 对 负 样 本 取 值 的 进一步 对 比 。 由 于 9K 
数据 集训 练 时 间 太 长 , 先 缩小 词 向 量 维度 size 值 为 50 
以 缩短 训练 时 间 ， 再 探究 negative 值 对 结果 的 影响 。 


201711.02038v1 


chinaXiv 


在 Skip-Gram&NS 方法 中 , negative 值 越 大 ， 相 关系 数 
越 高 。 虽 然 negative 取 5 时 , 训练 结果 不 如 Hierarchy 
SoftMax 算法 ; 但 当 negative 取 20 时 , 相关 系数 达到 
0.539， 比 Hierarchy SoftMax 算法 高 很 多 。 

表 3 对 negative 因素 的 对 比 (sg=1, size=50, 9K 数据 


滁 
— 


Negative Sampling 


Hierarchy 
. negative 取 值 
Skip-Gram 模型 ee (neg ) 
10 15 20 
; Pearson 相关 性 .497™ .511™ .521™ .539™ 
se 
N 435 435 435 435 


综 上 所 示 ，Skip-Gram 和 Negative Sampling， 当 
负 样 本 采样 值 为 20 时 , 训练 模型 得 到 的 结果 较 优 。 
以 下 参数 选择 均 以 Skip-Gram&NS 方法 为 前 提 来 开 
4.3 ”参数 对 比 

为 了 掌握 词 向 量 维度 的 大 小 (size) 对 算法 结果 的 
影响 ,首先 利用 规模 较 小 、 训 练 速 度 较 快 的 数据 集 寻 
找 size 参数 变化 对 结果 的 影响 ,再 选择 可 使 结果 达到 
最 优 的 参数 取 值 区 间 进 一 步 观察 。 在 3K 数据 集 控制 
size 值 在 [50，500] 范 围 内 ,发 现 词 向 量 维度 值 并 不 是 
越 大越 好 , 取 值 在 [50, 100] 结 果 较 优 , 如 图 5 所 示 。 进 
而 在 9K 数据 集 缩 小 size 的 取 值 在 [50，100] 区 间 范 围 ， 
发 现 词 向 量 维度 为 50 的 时 候 ，Skip-Gram&NS 与 专家 
评分 的 相关 性 最 高 ， 如 图 6 所 示 。 


0.40 


I 


0.35 


0.30 


0.25 


0.20 
0 100 200 300 400 500 


图 5 size 因素 取 值 对 结果 影响 (sg=1, 3 数据 集 ) 


在 Skip-Gram&NS 方法 中 ,固定 已 测 参数 负 采 样 
值 、 词 向 量 维度 为 最 佳 取 值 (negative=20, size=50), 人 研 
究 高 频 采 样 阔 值 sample 对 结果 的 影响 。 在 Google 给 
出 的 Word2Vec 工具 包 中 推荐 在 [1e-5，1e-3] 范 围 内 改 
变 sample 值 ， 因 此 将 该 参数 设置 为 图 7 所 示 的 几 个 取 
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图 6 在 图 5 的 最 优 区 间 细 粒度 观察 size 取 值 对 


结果 的 影响 (sg=1, hs 


=1, 9K 数据 集 ) 
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图 7 sample 因素 对 结果 的 


Oy be] 
og 人 A RC 
2 


影响 (sg=1, hs=0， 


negative=20, size=50, 9K 数据 集 ) 
值 。 结 果 发 现 ,sample 值 越 小 训练 结果 与 base 值 的 相 


关 性 越 高 , 训练 时 间 也 明显 变 短 。 高 频 词 在 语料库 中 
出 现 次 数 很 多 并 且 提 供 的 有 用 信息 更 少 , 训练 时 对 应 
的 词 癌 量变 化 也 较 小 。 由 公式 (10) 可 知 , sample 值 越 小 ， 
语料库 中 出 现 概率 高 于 sample 的 词语 越 多 ， 二 次 采样 
中 , 被 跳 过 的 高 频 词 越 多 , 准确 性 越 高 。 在 9K 数据 文 
本 作为 训练 集 的 情况 下 , sample 值 取 le-5 时 结果 较 优 。 
两 者 相关 系数 达到 0.614, 结果 有 明显 提高 。 

令 sample=1e-5， 进一步 考察 低频 词 闷 值 min_ 
count 对 其 取 值 从 40 开始 ,以 步 长 为 20 变化 。 由 表 4 


可 知 , 在 (40, 100) 范 围 内 min_count 的 改变 对 结 


影响 


不 大 。 训练 前 创建 词 表 时 ,去 掉 词 频 低 于 40 的 词 可 以 


使 结果 更 优 。 


表 4 min count 因素 对 结果 的 影响 (sg=1, hs=0， 


negative=20, size=50, sample=1e-5, 9K 数据 集 ) 
min_count 参数 40 60 80 100 
Pearson 相关 性 .614” .610” .611™ .606” 
base 
N 435 435 435 435 
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上 下 文 窗口 window 的 取 值 理论 上 是 越 大 越 好 ， 
但 是 window 扩大 将 致使 训练 时 间 加 长 。 在 [50，200] 
区 间 上 改变 window 参数 , 与 专家 评分 比较 得 到 如 图 8 
所 示 的 结果 : window 为 50 左右 相关 系数 就 不 再 增加 ， 
为 0.635。 此 时 Skip-Gram 取 上 下 文 样本 时 , 在 [1，50] 
区 间 上 生成 一 个 随机 整数 c, 然后 在 词 w 前 后 各 取 c 
个 词 , 构成 context(w)。 


0.64 一 
令 
0.63 | mr 
镶 
0.62 
0.61 
0.60 
S. 
0.59 二 T T T T 1 
0 50 100 150 200 250 


图 8 window 因素 对 比 (Sg=1, hs=0, negative=20， 
size=50, sample=1e-5, min count=40, 9K 数据 集 ) 


综合 以 上 对 参数 因素 的 探究 , 发 现 采 用 Skip-Gram 
模型 和 Negative Sampling( 负 样本 采样 值 为 20) 算 法 组 
合 , 词 向 量 维度 取 50, 高 频 词 采样 闵 值 取 1e-5, 低频 
词 阔 值 取 40， 上 下 文 窗口 取 50 的 时 候 , 训练 模型 得 到 
的 相似 性 度量 结果 最 优 , 与 base 值 的 相关 系数 达到 
0.635, 将 此 结果 记 为 W2V。 


5 ”Word2Vec 的 疾病 关联 探测 效果 分 析 


将 实验 得 到 的 最 优 结果 W2V 与 base 值 进行 详细 
对 比分 析 , 对 W2V 值 归 一 化 处 理 , 得 到 散 点 图 如 图 9 
所 示 。 将 435 组 值 按照 base 值 从 大 到 小 排序 , 从 1 开 
始 编号 到 435, 以 编号 作为 横 坐 标 , base 值 和 W2V 值 


作为 纵 坐 标 。 
1.2 
® base 
1.0 rap 
W2V 
08 .ED 
i 
0.6 此 nu ee 
0.4 HH ei 村 
(Et 
0 和“ 
0 T T T ECE) 
0 100 200 300 400 500 


图 9 base&W2V 散 点 图 
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应 用 认 


在 base 值 从 大 到 小 降低 时 , W2V 值 也 是 整体 降低 
的 趋势 。 语 义 相似 性 较 高 的 区 域 ，W2V 值 更 分 散 ; 相 
似 性 低 的 区 域 , W2V 的 值 相对 而 言 更 集中 。Word2Vec 
计算 结果 的 整体 性 较 好 ， 局 部 性 需要 进一步 改进 。 

按照 base 值 的 取 值 范围 , 将 数据 分 成 7 个 区 间 ， 
对 应 的 base 值 从 高 到 低 。 由 表 5 容易 发 现 ,base 值 较 
高 的 区 间 上 , 相应 的 W2V 的 最 小 值 要 比 低 区 间 上 最 
小 值 高 。 均 值 的 分 布 与 base 值 区 间 值 的 高 低 变 化 趋势 
一 致 ， 区间 越 高 , 均值 越 大 , 这 也 与 图 9 结论 相 吻 合 ; 
但 是 相对 而 言 W2V 的 均值 变化 范围 更 小 。 中 位 数 的 
变化 趋势 与 均值 基本 保持 一 致 -base 取 1 的 区 间 上 , 标 
准 差 最 大 , 为 0.157; base 取 0 的 区 间 上 , 标准 差 最 小 ， 
为 0.127; 这 表示 ,相似 性 最 高 的 区 间 上 , W2V 点 的 离 
散 程 度 更 大 ， 相 似 度 最 低 的 区 间 上 , W2V 点 的 分 布 情 
况 最 集中 。 

表 5 W2V 值 在 不 同 水 平 base 值 上 统计 值 


编号 W2V 值 
base 值 范围 于 

汉 最 小 值 最 大 值 ”均值 中 位 数 标准 差 
1 2:43 0.244 0.971 0.709 0.710 0.157 


0.833 44:105 0.148 0.910 0.562 0.562 0.157 
0.667 106:176 0.162 0.962 0.522 0.522 0.150 
0.5 177:233 0.119 1.000 0.426 0.399 0.156 
0.333 234:296 0.085 0.704 0.372 0.384 0.147 
0.167 297:372 0.000 0.572 0.327 0.338 0.130 
0 373:436 0.032 0.609 0.311 0.282 0.127 


由 Word2Vec 训练 得 到 的 疾病 主题 语义 关联 中 ， 
按照 相似 性 从 高 到 低 排序 , 得 到 的 前 10 对 相似 的 疾病 
主题 对 如 表 6 所 示 。 对 应 的 base 值 中 , 有 6 组 疾病 是 
高 度 相关 的 , 3 组 疾病 相关 性 也 较 高 。 唯 有 男性 健康 与 
女性 健康 这 组 关系 ，Word2Vec 计算 得 到 是 高 度 相 关 ， 
而 专家 评分 仅 为 0.5， 差异 较 大 。 这 可 能 是 因为 
Word2Vec 中 表示 词组 时 用 向 量 相 加 表示 ，Men's 
Health Women's Health 的 向 量 分 别 为 词语 health 与 词 
语 men、women 的 向 量 加 合 , 计算 时 两 者 相似 性 会 随 
之 增高 。 尤 其 词语 men 与 词语 women 在 语料库 中 出 
现 频率 较 高 ,， 特 指 性 不 强 , 在 语义 上 还 很 相似 ， 从 而 
高 佑 了 Men's Health( 男 性 健康 ) 与 Women’s Health( 女 
性 健康 ) 之 间 的 关联 ,。 并且 这 两 种 疾病 本 身 涵盖 的 范围 
也 比较 宽泛 ,影响 了 Word2Vec 判断 准确 性 。 
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表 6 Top10 相似 疾病 主题 
将 题 |。 疾病 主题 相信 性 ”上 化 baw 从 

Men’s Health Women’s Health 0.848 1.000 0.5 
Cardiovascular Cholesterol 0.822 0.971 1 
Breast Cancer Prostate 0.814 0.962 0.667 
Cardiovascular Heart Disease 0.801 0.948 1 
Mental Health Women’s Health 0.767 0.910 0.833 
Anxiety Depression 0.766 0.909 1 
Allergy Asthma 0.766 0.908 1 
Cardiovascular Hypertension 0.746 0.886 1 
Cardiovascular Stroke 0.729 0.867 1 
Men’s Health Mental Health 0.724 0.862 0.667 


6 结 语 


本 文选 取 30 个 疾病 主题 , 采集 Medical News 
Today 上 的 新 闻 文 本 , 利用 Word2Vec 技术 计算 疾病 间 
关联 关系 , 并 与 专家 评分 结果 进行 对 比 ,人 研究 发 现 ， 数 
据 规 模 越 大 , 模型 效果 越 好 , 但 训练 时 间 更 长 ;Skip- 
Gram 模型 结合 负 样 本 数 为 20 的 Negative Sampling 优 
化 方法 在 大 规模 数据 集 上 的 实验 结果 最 优 ; 高 频 词 二 
次 采样 阔 值 越 小 , 训练 效果 越 好 , 训练 时 间 也 越 短 。 最 
优 条 件 下 , 训练 结果 与 专家 评分 的 相关 系数 达到 
0.635; 语义 相似 性 较 高 的 区 域 , Word2Vec 训练 值 更 分 
散 ; 相似 性 低 的 区 域 ， Word2Vec 训练 值 相对 而 言 更 集 
中 。 将 Word2Vec 训练 结果 按照 相似 性 从 高 到 低 排 序 ， 
得 到 的 前 10 组 疾病 关系 中 , 有 9 组 在 专家 评分 中 相关 
性 也 很 高 。 

利用 Word2Vec 技术 在 面向 大 众 的 健康 信息 源 中 
也 可 以 探测 疾病 关联 ， 其 有 效 性 表明 该 技术 可 用 于 改 
善 大 众 的 健康 信息 搜寻 的 个 性 化 服务 。 

未 来 将 从 以 下 方面 开展 研究 : 扩大 数据 集 ， 
Word2Vec 在 数据 规模 增 大 时 效果 提升 明显 , 实际 中 使 
用 更 多 数据 可 得 到 更 理想 的 结果 ; 调整 疾病 类 型 ， 从 
更 细 的 粒度 开展 关联 关系 研究 。 
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Detecting Disease Associations with Word2Vec from Consumer Health 
Information 


Luo Wenxin Chen Chong Deng Siyi 
(School of Government, Beijing Normal University, Beijing 100875, China) 


Abstract: [Objective] Average people usually do not know the complex associations among diseases, which poses 
negative effects to their health information seeking experience. This study tries to detect the associations among 
diseases using popular medical information with the help of deep learning technology (Word2Vec), aiming to improve 
personalized information services. [Methods] First, we identified 30 common disease topics with the help of medical 
professionals, and then collected related reports from Medical News Today. Second, we built word vector for each 
document with Word2Vec technology to calculate the semantic similarities among them. Finally, we compared the 
machine training results with experts’ scores to evaluate the performance of the proposed method. We also investigated 
the impacts of different models, optimization methods, data sizes and important parameters to the results. [Results] The 
correlation coefficient between the Word2Vec results and the experts’ scores reached 0.635 in optimal condition. We 
found that Skip-Gram model with less than 20 negative samples on large scale dataset yielded the best results. 
[Limitations] The precision of the Word2Vec judgment was affected by the number of disease topics. The granularity 
of disease topic needed to be improved. [Conclusions] The Word2Vec technology could be used to identify diseases 
association from consumer health information sources. It could also be used to improve the personalized health 
information services. 

Keywords: Word2Vec Disease association Non-professional medical information Health informaiton 
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EBSCO 进一步 资助 Koha 


EBSCO 宣布 继续 倡导 开源 和 开放 获取 , 进一步 资助 Koha。Koha 是 世界 上 第 一 个 功能 丰富 、 免 费 开 源 的 集成 图 书馆 系 
统 , 全 世界 有 15 000 多 家 各 种 类 型 的 图 书馆 使 用 Koha 作为 其 集成 图 书馆 系统 。 

EBSCO 于 2015 年 2 月 起 开始 为 Koha 提供 资金 资助 ， 本 次 对 Koha 的 最 新 资助 ,将 帮助 Koha 进行 下 一 阶段 的 功能 改进 ， 
如 额外 的 系统 互 操 作 性 ,以 及 采购 和 电子 资源 管理 功能 ， 具 体 来 说 , 包括 : 

(1) 开发 一 个 采购 的 APIL; 

(2) 全 面 实施 订购 和 发 票 系统 ; 

(3) 改进 Koha 和 CORAL 的 互 操作 性 , 为 传统 的 集成 图 书馆 系统 工作 流 和 ERM 功能 的 结合 提供 一 个 开源 的 解决 方案 。 

Koha 将 坚持 开源 的 传统 ,这 些 Koha 的 增强 功能 也 将 是 开源 的 ,可 供 他 人 使 用 、 修 改 和 重新 部 署 。 这 些 增强 的 功能 可 望 
于 2017 年 第 一 季度 完成 。 


(编译 自 : https://www.ebsco.com/news-center/press-releases/ebsco-information-services-continues-to-support-open-source-technology) 
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